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摘要 : [目的 /意义 ] 对 国内 外 数据 重用 研究 现状 进行 系统 梳理 ， 总 结 分 析 其 呈 
现 的 特点 与 不 足 ， 并 为 未 来 数据 重用 相关 研究 提供 借鉴 。 [方法 /过 程 」 运用 文 
献 调 研 法 获取 国内 外 数据 重用 相关 研究 文献 ， 并 基于 内 容 分 析 法 对 其 进行 分 类 ， 
总 结 当 前 数据 重用 研究 所 呈现 的 特点 和 存在 的 不 足 ， 并 提出 后 续 研 究 建议 。 
[结果 /结论 ] 现 有 数据 重用 研究 在 避免 重复 数据 收集 、 提 高 数据 使 用 效率 和 促 
进 研究 人 员 数 据 共享 方面 发 挥 了 一 定 的 作用 ， 并 且 逐 步 关 注 了 更 广泛 的 用 户 群 
体 、 拓 展 和 延伸 了 研究 的 学 科 和 领域 、 关 注 的 数据 重用 研究 类 型 更 加 多 元 化 ; 但 
总 体 研 完 方 向 较为 狭窄 、 研 究 方法 相对 局 限 、 研 究 数 量 相 对 稀少 。 未 来 数据 重用 研 
究 领 域 ， 应 进一步 拓宽 研究 的 用 户 群 体 、 更 关注 社会 经 济 发展 过 程 中 产生 的 新 问 
题 、 更 关注 大 数据 时 代 对 数据 重用 研究 提出 的 新 要 求 ， 进 一 步 推动 更 有 效 和 更 可 
靠 的 数据 重用 研究 ， 为 科技 创新 、 社 会 进步 、 国 家 发 展 贡献 力量 。 
关键 词 : 数据 重用 ”数据 管理 ”数据 可 重用 性 重用 困境 
分 类 号 : G350 
1 引言 

科学 数据 是 国家 科技 创新 发 展 和 经 济 社会 发 展 的 重要 基础 性 战略 资源 ， 也 
是 科研 活动 的 基础 性 资源 , 大 部 分 的 科研 活动 都 是 基于 数据 搜集 和 数据 分 析 来 开 
展 的 。1957 年 ， 际 科 学 联合 会 理事 会 (International Council for 
Science, ICSU) 为 了 改善 科学 与 技术 数据 的 管理 ， 从 而 提高 数据 的 使 用 以 此 来 
促进 科学 发 展 ， 相 继 成 立 了 国际 数据 组 织 世 界 数据 中 心 〈World Data 
Center ，WDC) 和 科学 技术 数据 委员 会 (Committee on Data for Science and 
Technology，CODATA) 。 近 年 来 ， 我 国 持续 注重 科学 技术 的 发 展 并 着 力 投 入 资 
源 ， 科 研 活 动 数 量 大 幅 提 升 ， 科 研 人 员 创 新 能 力 不 断 提高 ， 科 学 数据 也 随 之 呈 
现 出 “爆发 式 ” 增 长 。 尽 管 我 国 在 科学 数据 管理 与 开放 共享 方面 作 了 大 量 努 力 ， 
但 是 存在 诸多 不 足 ， 例 如 科学 数据 共享 的 效率 不 高 、 范 围 有 限 ， 大 量 科 学 数据 分 
散 其 至 流失 、 数 据 的 价值 没有 得 到 最 大 程度 的 发 挥 巾 。 这 一 局 面 是 多 种 因素 综合 
作用 的 结果 ， 例 如 ， 缺 少 国家 层面 的 法 规 保 障 ， 缺 少 专业 的 数据 存储 系统 ， 科 
研 人 员 对 收集 分 析 后 的 科学 数据 不 再 在 意 其 潜在 的 价值 、 缺乏 对 其 进行 保存 的 意 
识 不 足以 及 专业 的 数据 保存 指导 ， 等 等 。 因 此， 为 了 提高 科学 数据 的 利用 率 ， 需 
要 研究 人 员 更 深入 地 理解 数据 重用 。 

数据 重用 (Data Reuse) 也 被 称 为 数据 复 用 、 数 据 再 利用 或 二 手数 据 使 用 。 
目前 对 数据 重用 的 定义 尚 没有 一 个 统一 的 定论 ， 张 满月 等 根据 定义 侧重 点 的 不 
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同 ， 将 科研 数据 重用 的 定义 分 为 4 类 :中 “意图 ” 派 :注重 从 词语 含义 方面 界定 ， 
突出 原始 目的 以 外 的 使 用 意图 ;@ “情境 ” 派 :着 重 列举 数 据 重 用 的 具体 情 
HO “内容 ” 派 : 对 所 重用 数据 的 具体 表现 形式 与 呈现 要 求 进 行 前 述 ， 着 重 说 
明 重 用 数据 后 形成 的 新 的 科研 产 出 ;由 “ 流 程 ” 派 :注重 将 数据 开放 共享 与 重用 
视 为 完整 流程 , 强调 数据 重用 过 程 必须 可 追溯 由。 重用 科学 数据 ， 可 以 有 效 的 避 
免 重复 收集 数据 ， 节 省 科研 项 目 成 本 ， 节 约 科研 人 员 的 时 间 、 精 力 。 

部 分 学 者 曾 对 数据 重用 研究 进行 过 述评 ， 主 要 集中 于 数据 重用 困境 解决 措 
施 ， 缺 少 全 面 的 、 系 统 的 分 析 。 为 此 ， 本 文 针 对 国内 外 数据 重用 研究 进行 分 析 ， 
包括 学 者 们 关注 的 主题 、 用 户 群 体 、 研 究 方法 等 ， 揭 示 研 究 呈 现 的 新 特点 ， 述 评 
国内 外 数据 重用 研究 的 特点 与 不 足 ， 为 未 来 数据 重用 相关 研究 提供 借鉴 。 
2 研究 方法 
2. 1 分 析 样 本 

笔者 采用 中 国 知 网 、Web of Science 平台 作为 数据 来 源 ， 中 文 文献 主要 通 
过 “数据 重用 ”、“ 数 据 复 用 ”、“ 数 据 二 次 使 用 ”、“ 数 据 重复 使 用 ”作为 主题 
词 进 行 检 索 ， 选 择 “ 图 书 情报 与 数字 图 书馆 ”学 科 ， 喘 文 文献 采 用 


Title=(data reuse) or (data reusing) or (data re-use) or (dataset 


reuse) or (secondary data reuse) or (data reusability) 进行 检索 ， 选 择 
WAHA “Information Science Library Science”， 检 索 时 间 和 截至 2022 
年 3 月 14 日 ， 得 到 中 文 文献 56 篇 ， 英 文 文献 1944 篇 。 通 过 人 工 判读 ， 并 对 相关 
文献 的 引文 和 参考 文献 进行 追踪 ， 辅 以 Google Scholar， 进 行 滚雪球 式 的 追踪 
来 补 全 因为 检索 词 的 不 全 面 造 成 的 漏 检 ， 最 终 获得 98 篇 文献 ， 形 成 本 研究 的 分 
析 样 本 。 文 献 类 型 分 布 详 见 图 1。 从 图 1 可 以 看 出 ， 实 证 调查 类 论文 占 比 高 达 
57%， 是 目前 数据 重用 研究 领域 最 主要 的 论文 发 表 形式 。 
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2.2 编码 分 析 


文献 类 型 


和 实证 调查 类 论文 @ 设 计 改 进 类 论文 综述 类 论文 。 原理 探究 类 论文 描述 类 论文 
日 观 点 类 论文 eth ux 比较 类 论文 


图 1 文献 类 型 分 布 图 


本 文采 用 内 容 分 析 的 方法 ， 对 样本 文献 进行 编码 ， 从 而 识别 数据 重用 研究 
的 基本 特点 ， 梳 理 和 总 结 国内 外 数据 重用 的 研究 进展 与 存在 的 问题 。 编 码 框架 包 
括 研究 主题 \ 研 究 对 象 \ 研 究 方法 、 使 用 或 借鉴 的 理论 模型 及 研究 发 现 或 结果 ， 如 


表 1 所 示 。 


XH 
研究 主题 


研究 对 象 


研究 方法 


表 1 文献 编码 框架 
说 明 / 编 码 

数据 重用 研究 的 不 同方 向 ， 包 括 数据 重用 行为 研究 (包括 群体 
对 数据 重用 的 态度 看 法 、 重 用 意愿 以 及 他 们 重用 数据 的 行为 特 
AO 、 数 据 重用 产生 的 利 次 研究 包括 数据 重用 产生 的 好 、 坏 影 
响 〉、 数 据 重用 基础 研究 (包括 对 数据 重用 的 概念 、 定 义 、 过 程 、 
分 类 的 研究 ) 、 数 据 重 用 影响 因素 研究 (包括 外 部 环境 的 影响 
因素 ， 如 政 集 法 规 、 基 础 设施 建设 等 ， 和 内 部 影响 因素 ， 即 重 
用 者 自身 的 因素 ) 、 数 据 可 重用 性 评估 研究 〈 包 括 数据 可 获取 
性 数据 的 质量 评估 、 数 据 可 理解 性 .可 信任 性 等 判 据 ) 、 综 合 性 
数据 重用 研究 ( 仅 笼 统 论 述 数 据 重 用 这 一 主题 而 难以 从 文中 归 
纳 出 具体 的 研究 类 型 ) 等 

研究 的 对 象 或 样本 涉及 的 群体 ， 如 社会 科学 研究 人 员 、 考 古人 
员 等 ;没有 通过 职业 、 年 龄 .身份 等 维度 进行 区 分 的 研究 对 象 ， 
本 文 统称 为 综合 人 群 

研究 所 采用 的 方法 ， 分 为 数据 收集 方法 (如 访谈 法 ) 和 数据 分 析 
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方法 (如 结构 方程 模型 ) 


理论 模型 用 于 支撑 研究 所 使 用 或 借鉴 的 理论 或 模型 ， 如 计划 行为 理论 模 
型 (TPB) 、 用 户 满意 理论 
研究 结果 /发 现 | 主要 研究 结果 和 发 现 ， 以 及 研究 呈现 的 创新 之 处 


3 数据 重用 研究 的 特点 

如 图 2 所 示 ，“ 数 据 重用 行为 研究 ” 占 比 37%，“ 数 据 重用 影响 因素 研究 ” 
占 比 22%，“ 数 据 重 用 产生 的 利 歇 研究 ” 占 比 12%，“ 数 据 重 用 基础 性 研究 ” 占 
LE 18%。 这 几 个 主题 是 数据 重用 研究 的 主要 领域 ,总 占 比 达到 89%。 研究 对 象 主 要 
是 科研 人 员 ， 涉 及 主要 领域 为 社会 科学 、STEM 学 科 、 生物 医学 ， 此 外 教育 学 与 教 
师 、 食 品 科学 与 营养 学 、 天 体 物 理 、 考 古 学 等 多 个 学 科 领 域 也 得 到 了 关注 。 


研究 主题 


自 数 据 重用 行为 研究 里 数据 重用 影响 因素 研究 ”@ 数 据 重用 产生 的 利 羔 研 究 
晶 数 据 重用 基础 性 研究 ete BAER 加 综合 性 数据 重用 研究 


图 2 研究 主题 分 布 

表 2 展示 了 研究 论文 采用 的 数据 收集 与 分 析 方 法 的 分 布 。 在 61 篇 研究 论文 
中 ， 学 者 们 多 采用 问卷 调查 (31. 15%)〉、 访 谈 法 (18. 03%) 、 检 索 (19. 67%) .— 
手数 据 (8.20%) 作为 数据 收集 方法 ;结构 方程 模型 (18.03%)〉 和 统计 方法 
(9. 84%) 是 问卷 调查 法 常用 的 分 析 方 法 ， 针 对 通过 访谈 获得 的 数据 ， 学 者 们 多 
采用 编码 分 析 (16. 39%) 来 进行 分 析 ; 通过 检索 获得 的 数据 ， 学 者 们 多 使 用 内 
容 分 析 、 统 计 分 析 的 方法 进行 研究 。 

表 2 研究 论文 采用 的 数据 收集 、 分 析 方 法 分 布 
数据 收集 方法 数据 分 析 方 法 


方法 文献 数量 〈 百 分 
比 ) 方法 
二 手数 据 5 (8. 20%) 
| 引文 分 机 | 
| 统计 分 析 | 
访谈 11 (18. 03%) 
| 编码 | 
A 12 (19. 67%) 内 容 分 析 / 编 码 
| 统计 分 析 | 
| 回归 分 机 | 
| 引文 分 机 | 
| 混合 方法 | 
问卷 19 (31. 15%) 结构 方程 模型 
编码 
| 统计 分 析 | 
多 元 回归 分 析 
小 组 讨论 2 (3, 28%) 
O fid | 
网 络 调查 
| 文献 分 机 | 
量 法 
fame | 5620 | _ 
建 模 4(6.56%) | | 


为 开展 研究 ， 学 者 们 使 用 、 借鉴 了 多 下 


文献 数量 〈 百 分 
比 ) 
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理论 模型 ， 本 文 对 此 进行 了 统计 。 纳 


入 “理论 、 模 型 的 使 用 与 借鉴 ”的 标准 为 : 电文 献 中 详细 介绍 了 相关 理论 、 模 型 


包 研 究 设 计 基 于 该 理论 、 模 型 ， 如 基于 某 和 
不 在 其 基础 上 开展 研究 设计 的 不 列 入 本 文 的 统计 范围 中 。 表 3 中 到 


语 名 称 均 来 自 于 被 分 析 的 文献 。 
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RI 数据 重用 研究 使 用 或 借鉴 的 理论 、 模 型 及 频次 


计划 行为 理论 (TPB) 
技术 接受 模型 (TAM) 
用 户 满 意 理论 


理论 、 模型 


继续 使 用 (持续 使 用 ) 意愿 理论 
Walsh and Downe model 、 Jl 


(Garfield, 1979) .fiIlFFFRiO. BoE 


X sj 


机 3H ie 


He/ 2 US 


he 、 使 用 统 


理论 提出 了 研究 假设 。 对 于 仅 引用 而 
Hie. BUDRUR 


如 表 3 所 示 ， 数 据 重 用 研究 使 用 或 借鉴 最 多 的 理论 、 模 型 是 计划 行为 理 


He 
使 用 或 借鉴 频次 
13 
7 
2 
2 
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一 理论 CUTAUT) 、 项 目 反 应 理论 、Rasch 模型 、 生 态 系统 模 
型 、 数 据 监护 生命 周期 理论 、MOA 理论 、LDA 主题 模型 、 信 息 使 
用 环境 理论 、 期 望 确认 理论 、 感 知 风险 理论 、the Community 
Capability Model、 自 我 决定 理论 、 技 术 采 纳 与 利用 整合 理 
论 、 理 性 行为 理论 CTRA), IS 成 功 模型 

归纳 起 来 ， 国 内 外 数据 重用 研究 的 特点 主要 表现 为 : 

C1) 关注 的 用 户 群 体 广泛 。 数据 重用 研究 主要 涉及 的 群体 是 研究 人 员 ， 考 
古 学 家 、 教 师 、 文 化 中 心 与 博物 馆 的 工作 人 员 等 并 非 大 量 重用 数据 的 群体 也 受到 
了 关注 。 而 研究 人 员 所 在 的 领域 中 ， 除 了 具有 悠久 传统 共享 和 重用 数据 历史 的 社 
会 科学 、 生 物 医药 、STEM 学 科 以 外 ， 学 者 们 不 断 拓展 了 研究 的 用 户 和 群体 的 所 属 学 
科 ， 诸 如 营养 学 、 食品 科 学 、 农业 化 学 、 天体 物 理学 等 。 不过， 尽管 近年 来 数据 重 
用 的 研究 越 来 越 多 ， 但 大 多 数 研究 都 是 针对 特定 学 科 领 域 中 的 数据 重用 实践 研 
Fi, GRD MES TAB SEHE TCU . 

(2) 数据 重用 行为 研究 受到 最 广泛 的 关注 。 数 据 重用 行为 研究 又 可 以 细 分 
为 数据 重用 行为 意愿 及 影响 因素 、 数 据 重用 行为 困境 、 数 据 重 用 行为 促进 策略 等 
多 个 更 为 详细 的 研究 领域 。 国 内 数据 重用 相关 研究 几乎 都 为 行为 研究 ， 国 外 研究 
主题 更 为 广泛 一 些 ， 但 行为 研究 仍然 占据 最 大 的 部 分 。 

(3) 数据 重用 研究 整体 数量 偏 少 ， 国 内 研究 相 比 国外 相对 不 足 。 仅 从 检索 
结果 就 可 以 看 出 ， 检 索 得 到 的 数据 重用 相关 文献 中 ， 国 内 文献 为 23 篇 ， 国 外 文 
献 为 75 篇 ， 且 国内 数据 重用 研究 主题 主要 集中 在 行为 研究 ， 相 比 国 外 ， 研 究 范 
围 相 对 狭窄 ， 数 据 重用 的 定义 、 流 程 、 框 架 等 都 鲜 有 研究 。 

(4) 数据 重用 相关 研究 往往 与 数据 共享 有 着 紧密 的 联系 。 数 据 共享 是 数据 
重用 的 前 提 ， 数 据 重用 是 数据 共享 的 目的 ， 因 此 两 者 的 研究 往往 相互 涉及 。 从 数 
据 生命 周期 来 看 ， 数 据 共 享 与 数据 重用 分 别 位 于 数据 生命 周期 的 不 同 阶段 ， 数 
据 共享 涉及 数据 的 处 理 、 保 存 环节 ， 是 后 续 数 据 重用 过 程 中 数据 检索 获取 、 评 估 
使 用 的 前 提 。 多 项 研究 表明 数据 共享 是 影响 数据 重用 的 关键 因素 ， 而 数据 重用 经 
验 又 会 显著 影响 科研 人 员 对 数据 共享 的 感知 和 共享 规范 。 

(5) 部 分 数据 重用 的 相关 研究 ， 尽 管 得 到 了 较 多 的 关注 和 讨论 ， 但 由 于 问 
题 的 复杂 性 ， 目 前 仍 没 有 一 致 的 结论 。 如 数据 的 可 复 用 性 评估 作为 数据 重用 流程 
中 的 核心 阶段 ， 从 整体 视角 理解 基于 数据 复 用 者 感知 的 数据 可 复 用 性 是 一 个 非 
常 复杂 的 问题 ， 尽 管 有 多 位 学 者 围绕 数据 本 身 (如 数据 可 获得 性 、 数 据 质量 、 数 据 
存储 库 稳定 性 与 安全 性 )、 数 据 的 生产 者 和 使 用 者 (可 靠 性 等 ) 、 数 据 情 境 信息 (如 
相关 性 ) 等 多 个 维度 进行 了 数据 的 可 复 用 性 的 探讨 ， 但 至 今 仍 没有 得 到 其 确定 的 
内 涵 。 

4 不 同 领域 的 研究 进展 

限于 篇 幅 ， 本 文选 择 几 个 重点 领域 ， 包 括 数据 重用 行为 研究 ， 数 据 重 用 概 

念 、 定 义 、 框 架 研 究 ， 数 据 可 重用 性 的 评估 与 分 析 ;， 数据 重用 带 来 的 利 次 研究 ， 


阐述 数据 重用 研究 的 进展 。 
4. 1 数据 重用 行为 研究 

国内 数据 重用 相关 研究 几乎 都 聚焦 于 这 一 领域 ， 国 外 数据 重用 相关 研究 也 
有 相当 一 部 分 关注 于 此 ， 因 此 数据 重用 行为 研究 是 数据 重用 相关 研究 中 占 比 最 
大 的 一 项 。 该 领域 着 重 探究 研究 人 员 对 数据 重用 的 态度 意愿、 行为 实践 及 相关 影 
响 因 素 。 国 内 学 者 针对 不 同 用 户 群 体 、 不 同学 科 的 数据 重用 行为 进行 了 研究 ， 主 
要 包括 生物 医学 研究 人 员 、 社 会 科学 研究 人 员 等 ， 外 国学 者 进行 了 更 为 广泛 的 用 
户 和 群体 研究 ， 主 要 包括 STEM (科学 (Science) ， 技 术 〈Technology) ， 工 程 
(Engineering) ， 数 学 (Mathematics) ) 学 科研 究 人 员 、 生 物 医 学 研究 人 员 、 
社会 科学 研究 人 员 等 。 其 他 学 科研 究 人 员 《〈 天 体 物 理学 、 动 物 学 、 食 品 科 学 、 营 养 
学 和 农业 化 学 、 教 育 学 ) 和 教师 考古 学 家 、 健 康 科 学 家 的 数据 重用 行为 也 受到 了 
关注 。 此 外 ， 还 有 学 者 针对 新 手数 据 重 用 行为 中 和 具有 丰富 数据 重用 经 验 的 研究 
人 员 中 进行 了 研究 。 

学 者 们 针对 数据 重用 行为 意愿 及 影响 因素 、 数 据 重 用 行为 困境 、 数 据 重 用 行 
为 促进 策略 等 进行 了 广泛 的 探讨 。 

数据 重用 行为 困境 主要 来 源 于 法 律 法 规 、 技 术 可 行 、 认 知 接受 三 个 维度 ,研究 
表明 ， 当 前 的 法 律 、 政 策 并 不 能 充分 应 对 数据 快速 增长 带 来 的 数据 重用 需求 的 挑 
战 。.Helena Ursic 等 指出 欧洲 知识 产权 会 限制 数据 重用 者 充分 利用 数据 集 《 数 据 
保留 法 》 中 的 数据 本 地 化 阻碍 了 国际 数据 传输 ， 限 制 了 全 球 范围 内 的 数据 交换 和 
重用 ,没有 关于 公开 发 布 数 据 集 以 供 重复 使 用 的 指导 方针 。 例 如， 敏感 数据 是 
否 以 及 如 何 被 重复 使 用 尚 不 明确 中。Kathrin Dentler 等 指出 尽管 数据 重用 对 病 
人 乃至 对 社会 有 着 巨大 的 好 处 ， 但 是 病人 的 数据 涉及 到 隐私 问题 ， 需 要 得 到 保 
护 。 欧 盟 数据 保护 指令 中 指出 ; 除非 获得 数据 主体 的 同意 或 法 律 授 权 ， 否 则 个 人 
数据 不 应 被 披露 、 提 供 或 用 于 指定 目的 以 外 的 其 他 目的 的 原则 称 为 使 用 限制 原 
则 。 此 外 ， 数 据 本 映 也 是 造成 数据 重用 困境 的 主要 原因 ， 如 数据 质量 、 数 据 访问 、 
数据 可 移植 性 等 因素 。 Ayoung Yoon 研 究 发 现 由 于 数据 访问 困难 ， 一 些 参 与 者 放 
弃 了 数据 重用 中，James W，McAl1lister 指 出 经 常 缺 少数 据 来 源 环 境 的 相关 信 
恩 ， 无 法 确保 数据 的 准确 性 或 无 法 理解 数据 ， 因 此 导致 重复 使 用 历史 经 验 数据 
的 困难 和 局 限 性 。 行 为 往往 是 态度 的 产物 ， 态 度 反 过 来 又 受 个 人 经 验 的 影响 。 研 
究 表 明 ， 科 研 人 员 对 于 数据 重用 的 态度 整体 是 积极 的 ， 但 仍 有 许多 担心 。 许 多 研 
究 者 不 愿意 与 他 人 分 享 自己 收集 的 数据 ， 因 为 他 们 认为 这 是 一 种 宝贵 的 竞争 优 
势 。 数 据 重用 被 认为 是 减少 数据 收集 费用 和 缩短 研究 过 程 的 一 种 机 制 ， 对 于 时 间 和 
资源 有 限 的 研究 人 员 来 说 ， 数 据 重用 是 一 种 可 行 且 节约 的 选择 ， 但 是 数据 首次 收集 
的 意图 和 二 次 使 用 的 意图 往往 并 不 匹配 ， 这 种 不 匹配 可 能 需要 额外 的 时 间 来 整 
合 数据 ， 抵 消 了 重用 的 好 处 。 魏 银 珍 等 研究 发 现 科研 人 员 在 数据 重用 过 程 中 最 为 
担心 的 是 重用 数据 可 能 会 带 来 的 侵犯 版 权 行 为 、 对 数据 理解 不 够 透彻 、 研 究 成 果 


发 布 受阻 等 问题 ””。 一 些 科学 家 可 能 认为 他 们 的 数据 对 其 他 人 没有 价值 仅仅 是 
因为 他 们 不 知道 其 他 人 可 以 用 它们 做 什么 。 如 果 数 据 被 更 广泛 地 共享 ， 更 多 的 科 
学 家 可 能 认识 到 他 们 的 数据 被 意外 使 用 的 可 能 性 ， 那 么 他 们 就 更 有 可 能 进行 共 


= 
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由 于 数据 重用 具有 诸多 潜在 的 好 处 ， 学 者 们 对 促进 数据 重用 的 策略 进行 了 
研究 。 李 佳 潞 等 研究 发 现 数据 素养 对 科研 人 员 的 数据 重用 行为 以 及 数据 可 重用 人 性 
都 具有 显著 的 影响 。 较 高 的 数据 素养 能 够 使 科研 人 员 感 知 到 更 高 的 数据 仓储 可 获 
取 性 和 科学 数据 的 可 重用 性 , 同时 具有 较 高 数据 素养 的 科研 人 员 更 有 可 能 执行 科 
学 数据 重用 的 实际 行为 。 因此， 广泛 开展 科研 人 员 的 数据 素养 教育 、 提 高 科研 人 
员 的 数据 素养 有 助 于 促进 科研 人 员 的 科学 数据 重用 行为 00。 张 潇 月 等 指出 建 优 
化 开放 科研 数据 基础 设施 环境 、 建 立 面向 权益 平衡 的 数据 政策 环境 、 科 研 支 撑 畏 
助 机 构 提 供 的 开放 科研 数据 服务 、 关 注 科 研 人 员 的 主观 因素 对 科研 数据 重用 行为 
的 影响 等 都 有 利于 促进 数据 重用 外。 数据 共享 为 学 术 奖 励 体 系 带 来 了 新 的 机 遇 。 
当 科学 家 共享 数据 时 ， 他 们 做 出 了 重要 的 学 术 贡 献 ， 但 目前 还 没有 公认 的 方法 
来 衡量 和 承认 这 一 贡献 。 

4.2 数据 重用 概念 、 定 义 、 框 架 、 过 程 

数据 重用 至 今 没 有 官方 的 、 确切 的 定义 。 广义 的 数据 重用 一 词 往 往 指 数据 的 
初始 使 用 后 的 使 用 。 狭义 的 理解 上 ， 数 据 是 由 一 个 人 为 特定 的 研究 项 目 收集 的 ， 
第 一 个 用 途 是 由 该 个 人 提出 特定 的 研究 问题 。 当 该 数据 集 被 提交 到 存储 库 、 由 其 
他 人 检索 并 部 署 到 另 一 个 项 目 时 ， 通 常会 将 其 视 为 重用 。 

一 些 学 者 对 数据 重用 的 类 型 做 了 区 分 。Bart Custers 等 将 数据 重用 区 分 为 
三 类 :; CD 在 同一 上 下 文中 为 同一 目的 多 次 使 用 数据 进行 数据 回收 (2) 数据 
重新 调整 用 途 一 将 数据 用 于 与 最 初 收集 目的 不 同 的 目的 ， 但 仍 处 于 与 原始 目的 
相同 的 环境 中 〈3) 在 最 初 收集 数据 之 外 的 另 一 个 上 下 文中 使 用 数据 进行 数据 再 
上 下 文化 9。 

Xiaoguang Wang 等 分 析 了 数据 重用 的 过 程 。 数 据 重用 是 一 个 动态 的 过 程 。 
初始 阶段 受 数 据 需 求 的 刺激 ， 涉 及 是 否 重 用 现 有 数据 的 决策 。 第 二 阶段 是 探 
索 和 收集 。 在 这 一 阶段 ， 研 究 者 需要 以 各 种 方式 从 各 种 来 源 发 现 、 获 取 、 理 解 
和 选择 所 需 的 数据 ， 其 中 面向 对 象 是 数据 实体 和 上 下 文 。 如 果 找 到 了 足够 的 
相关 、 有 效 和 可 用 的 数据 ， 则 会 增强 或 放弃 确定 。 当 做 出 有 利 决策 时 ， 在 选择 
和 获得 最 终 数据 之 前 ， 研 究 者 会 在 发 现 和 获取 数据 以 及 理解 和 选择 数据 、 纠 
正 对 不 适当 数据 的 选择 或 搜索 额外 数据 以 获得 最 佳 拟 合 之 间 进 行 转换 。 数 据 
选择 后 ， 收 集 的 数据 与 研究 目的 相 匹 配 ， 并 开始 二 次 处 理 ， 即 重新 调整 用 
途 。 该 阶段 适应 研究 数据 ， 采 用 多 种 数据 处 理 操作 ， 对 二 次 处 理 数据 进行 研 
究 13] o 
4.3 数据 可 重用 性 的 评估 与 分 析 

Meloda 是 Alberto Abella 等 人 开发 的 一 种 评估 数据 可 重用 性 程度 的 指标 ， 
该 指标 诞生 于 2011 U4, Meloda 1.0 至 2.5 版 本 考虑 了 三 个 维度 : 数据 集 的 技 
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术 标 准 、 访 问 数据 的 机 制 、 数 据 的 法 律 许 可 。 BRE TE PE BEA ARF HO BI 
据 集中 应 用 ， 有 人 指出 ， 有 必要 包括 第 四 个 维度 ， 该 维度 将 考虑 要 发 布 的 数据 
模型 ， 反 映 数据 结构 对 处 理 信 息 《〈 机 器 可 处 理 ) 的 重要 性 。 改 进 后 的 Meloda 3 
包括 四 个 维度 : 数据 集 的 技术 标准 、 访 问 数据 的 机 制 、 数 据 的 法 律 许可 、 数 据 模 型 
Meloda 4 则 又 增加 了 数据 的 地 理 信息 和 更 新 频率 两 个 维度 。Meloda 4 在 五 年 的 
使 用 过 程 中 ， 暴 露 了 一 些 局 限 性 ,为 了 更 深入 地 了 解 这 一 主题 ， 一 个 国际 专家 小 
组 就 指标 的 两 个 方面 进行 了 调查 ,第 一 个 方面 是 ， 为 了 确定 已 发 布 数据 集 的 可 重 
用 性 ， 还 应 该 考虑 哪些 其 他 因素 ,第 二 个 方面 是 内 部 结构 〈 即 度量 的 每 个 维度 的 
RA) ， 它 们 是 否 应 该 增加 、 合 并 、 删 除 或 分 割 ,最 终 小 组 考虑 了 两 个 新 的 维度 : 

传播 和 声誉 ， 并 提出 了 新 的 内 部 结构 、 确 定 了 每 个 维度 的 级 别 ， 得 到 了 最 新 版 本 
的 Meloda 504。 


表 4 Meloda 5 
二 级 指标 二 级 指标 
1. 私 用 
合法 许可 (最 高 6 分 ) 2. 非 商 业 性 再 利用 


3. 商业 再 利用 或 无 限制 
1. 对 数据 集 的 Web 访 问 或 唯一 URL 参 数 
获取 信息 (最 高 6 分 )》 2. Web 访 问 对 单个 数据 具有 唯一 的 参 
数 
3. API 或 查询 语言 
1. 封闭 式 标准 可 重复 使 用 和 开放 式 不 
技术 标准 (最 高 6 分 ) 可 重复 使 用 
2. 开放 式 标准 可 重复 使 用 
3. 开放 标准 、 独 立 元 数据 
1. 自己 的 数据 模型 标准 化 
标准 化 (最 高 10 分 ) 2. 发 布 自己 的 特殊 数据 模型 标准 化 
(协调 ) 
3. 地 方 标准 化 
4. 全 球 标准 化 
.没有 地 理 信息 
. 简单 或 复杂 文本 字段 
. 坐标 或 完整 的 地 理 信息 
超过 1 个 月 
1 个 月 到 1 天 不 等 
1 天 到 1 小 时 不 等 
1 小 时 到 1 分 钟 不 等 
几 秒 钟 ( 更 新 周期 小 于 1 分 钟 ) 
. 沟通 /传播 不 系统 
传播 (最 高 6 分 ) 2. 更 新 可 用 资源 〈 即 RSS 提 要 ) 
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地 理 定位 内 容 ( 最 多 6 分 ) 


数据 更 新 频率 (最 高 15 分 ) 
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3. 主动 传播 /推送 传播 (信息 自动 且 
及 时 ) 
1. 关于 声誉 的 数据 没有 来 源 
2. 关于 用 户 意 见 的 统计 或 报告 
3. 数据 源 声 誉 的 指标 或 排名 

Jihyun Kim 等 探讨 了 地 震 工 程 研 究 人 员 评 估 同 事 的 实验 数据 可 重用 性 的 方 
法 中 。EE 研 究 人 员 在 评估 数据 可 重用 性 时 主要 考虑 三 个 问题 (1) 数据 是 否 相 
X, (2) 数据 是 否 可 以 理解 ，〈(3) 数据 是 否 可 信 ， 而 评估 途径 主要 包括 期 刊 
文章 、 个 人 网 络 、 文 档 以 及 与 产生 数据 的 同事 的 对 话 ， 他 们 往往 会 同时 通过 多 种 
途径 ， 因 为 每 种 途径 都 有 不 同 的 能 力 文 持 他 们 用 来 评估 同事 数据 的 可 重用 性 。 
4.4 数据 重用 带 来 的 利 浆 

数据 重用 可 以 给 数据 生产 者 和 数据 重用 者 两 者 都 带 来 好 处 。 对 于 数据 生产 者 
来 说 ， 数 据 被 重用 可 以 提高 相应 论文 的 影响 力 。Heather A，Piwowar 等 研究 得 
出 : 在 考虑 了 影响 引文 率 的 其 他 因素 后 ， 数 据 重用 仍 带 来 了 强大 的 引文 效益 ， 
并 且 第 三 方 数据 重用 的 直接 影响 在 研究 人 员 发 表 了 大 量 重 复 使 用 自己 数据 的 论 
文 之 后 持续 了 多 年 。 对 于 数据 重用 者 来 说 ， 可 以 减少 不 必要 的 重复 实验 ， 缩 短 研 
究 周期 ， 降 低 科 研 成 本 ， 加 快 研究 进程 。 

当然 ， 所 有 事物 都 具有 一 体 两 面 性 。 数 据 重 用 带 来 诸多 好 处 的 同时 ， 不 可 避 
免 的 也 具有 一 些 副 作用 。Stefan Collini Æ (The Slow Professor) Male tS 
到 : “当代 学 术 界 真正 的 知识 生产 力 的 障碍 之 一 是 大 多 数学 者 发 表 的 文章 太 
多 。” 尽 管 中 共 中 央 、 国 务 院 印发 了 《深化 新 时 代 教 育 评价 改革 总 体 方案 》， 强 调 
“不 得 将 论文 数 、 项 目 数 .课题 经 费 等 科研 量化 指标 与 绩效 工资 分 配 、 奖 励 挂钩 ?” 
但 发 表 期 刊 数 仍然 是 科学 领域 最 重要 的 绩效 指标 。Erik M. van Raaij 指出 在 多 
个 出 版 物 中 使 用 同一 数据 集 可 能 意味 着 自我 剩 鳃 和 重复 、 见 余 、 重 车 出 版 物 。 
Wiley Blackwell 在 2007 年 的 一 项 调查 中 显示 ， 见 余 出 版 是 16 种 科研 不 端 行 
为 中 最 严重 、 最 常见 的 一 种 ， 其 次 是 简 镭 、 重 复 提 交 、 未 披露 作者 利益 冲突 。 数 
据 重 用 本 身 不 是 问题 ， 但 对 跨 多 个 出 版 物 使 用 相同 数据 的 实际 案例 的 分 析 表 明 ， 
过 度 和 不 当 的 数据 重用 可 能 造成 学 术 不 端 "9 。 
5 结语 

科研 数据 不 仅 是 科研 活动 的 直接 产物 , 更 是 支撑 国家 科学 研究 及 科技 创新 的 
战略 性 资源 。 科 研 数据 的 重用 已 经 引发 国际 组 织 、 政 府 部 门 和 研究 机 构 的 高 度 关 
注 。 总 结 过 往 以 引领 未 来 是 一 项 重要 的 工作 。 本 文通 过 分 析 98 篇 数据 重用 相关 研 
究 论文 ， 梳 理 了 国内 外 数据 重用 研究 领域 的 进展 并 总 结 其 特点 ， 可 以 看 到 ， 在 
过 去 的 二 十 年 中 ， 数 据 重用 研究 在 减少 重复 数据 收集 、 提 高 数据 使 用 效率 和 促进 
研究 人 员 数 据 共享 方面 发 挥 了 一 定 的 作用 ， 并 且 逐 步 关 注 了 更 广泛 的 用 户 群 体 ， 
拓展 和 延伸 了 研究 的 学 科 和 领域， 此 外 ， 研 究 类 型 也 更 加 多 元 化 。 多 位 学 者 针对 
数据 重用 研究 的 重点 领域 展开 了 综述 ， 包 括 数据 重用 行为 、 数 据 重用 影响 因素 以 


及 数据 重用 产生 的 利 闵 的 相关 研究 , 同时， 阐述 了 当前 数据 重用 研究 的 问题 与 不 
是 ， 如 研究 方 同 较 为 狭窄 、 研 究 方 法 相对 局 限 、 研 究 数 量 相对 稀少 等 。 

为 此 ， 后 续 的 数据 重用 研究 需 在 以 下 方面 寻求 突破 : 

COD 国内 数据 重用 研究 方向 要 更 注重 多 样 化 。 以 往 的 数据 重用 研究 群体 较 
为 单一 ， 往 往 聚 焦 于 高 校 、 学 者 、 研 究 人 员 ， 研 究 方 向 则 多 为 行为 研究 ， 要 突破 
局 限 ， 将 研究 视野 拓宽 到 更 广泛 的 人 群 、 更 宏观 的 社会 层面 ， 挖 掘 数据 重用 研究 
的 深度 关注 整体 社会 的 发 展 ， 切 实 帮助 不 同类 型 的 群体 ， 使 数据 重用 研究 能 够 
服务 社会 、 服 务 大 众 。 

(2) 重视 大 数据 为 数据 重用 研究 带 来 的 机 遇 和 挑战 。 大 数据 革命 已 经 波及 
到 了 各 个 领域 ， 大 量 数据 的 积累 为 实现 数据 的 再 利用 ， 继 而 最 大 化 数据 的 价值 
提供 了 重要 的 基础 。 然 而 ， 如 何 开 发 利用 这 些 数据 ， 服 务 于 社会 经 济 、 科 学 技术 
的 发 展 ， 成 为 了 数据 重用 研究 领域 面临 的 巨大 挑战 。 这 些 挑战 一 方面 来 源 于 有 待 
提升 的 数据 存储 技术 和 基础 设施 建设 ， 另 一 方面 也 来 源 于 数据 保护 法 的 限制 。 所 
以 不 仅 要 关注 数据 重用 活动 的 价值 ， 还 要 关注 数据 的 质量 ， 关 注 数据 重用 过 程 
中 的 技术 、 伦 理 、 法 律 法 规 等 问题 ， 以 规范 化 地 重用 数据 。 

(3) 加 强 数据 生态 系统 的 理论 联系 。 数 据 生 态 系统 是 一 个 协同 进化 的 整体 ， 
其 应 用 理论 亦 不 是 独立 形成 的 ， 如 数据 开放 、 数 据 共 享 是 数据 重用 的 前 提 ， 数 据 
管理 、 数 据 素 养 是 数据 重用 的 重要 影响 因素 。 深 化 数据 生态 系统 体系 中 的 内 部 融 
合 ， 能 够 为 数据 重用 的 进一步 发 展 提供 更 有 力 的 文 持 。 

总 之 ， 未 来 的 数据 重用 研究 领域 ， 应 进一步 拓宽 研究 的 用 户 和 群体， 更 关注 
科学 技术 发 展 过 程 中 产生 的 新 问题 ， 重 视 大 数据 时 代 对 数据 重用 研究 提出 的 新 
要 求 ， 从 而 为 科技 创新 、 社 会 进步 、 国 家 发 展 贡献 力量 .本 研究 也 存在 一 定 的 局 限 
性 ， 分 析 样 本 只 包括 CNKI 和 Web of science 两 个 数据 库 中 检索 后 人 工 识 别 得 
出 的 文献 ， 且 由 于 采用 结构 化 搜索 策略 ， 尽 管 尽 可 能 地 穷尽 了 文献 中 涉及 的 检 
索 词 ， 但 仍 无 法 避免 检索 命中 率 偏 少 的 问题 ， 本 文 主要 通过 “滚雪球 ”的 方法 
来 弥补 这 一 缺陷 ， 另 外 ， 美 国 国家 科学 理事 会 (National Science Board, 
NSB) 将 数据 一 词 定 义 为 “任何 信息 ……' 包 括 文 本 、 数 字 、 图 像 、 视 频 或 电影 、 音频、 
软件 、 算 法 、 方 程式 动画、 模型、 模拟 等 ”， 仅 以 “Data” 为 核心 词 进行 检索 ， 未 
考虑 其 他 形式 的 信息 在 不 同学 科 都 可 能 是 数据 的 表现 形式 。 因 而 ， 研 究 结 果 可 能 
存在 偏差 ,后 续 将 继续 追踪 数据 重用 研究 的 发 展 ， 弥 补 这 些 局 限 性 ， 从 而 更 全 面 
地 揭示 国内 外 数据 重用 研究 的 特点 ， 以 更 好 地 促进 数据 重用 研究 领域 的 发 展 。 
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Review of the research on data reuse at home and abroad 
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Abstract: [Purpose/Significance] To systematically sort out the research status 
of data reuse at home and abroad, summarize and analyze its characteristics and 
shortcomings, and provide reference for future research on data reuse. 
[Method/Process] Use the literature survey method to obtain domestic and foreign 
research literature on data reuse, classify them based on content analysis, summarize 
the characteristics and shortcomings of current data reuse research, and put forward 
follow-up research suggestions. [Result/Conclusion] The existing data reuse research 
has played a certain role in avoiding duplication of data collection, improving the 
efficiency of data use and promoting data sharing among researchers, and gradually 
pays attention to a wider user group, expands and extends the research discipline 
However, the overall research direction is relatively narrow, the research methods are 
relatively limited, and the number of studies is relatively sparse. In the future, the 
research field of data reuse should further expand the research user groups, pay more 
attention to the new problems arising in the process of social and economic 
development, and pay more attention to the new requirements for data reuse research 
in the era of big data, so as to further promote more effective and reliable data reuse. 
Research and contribute to scientific and technological innovation, social progress 
and national development. 
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